1 Introduction

Dans le monde, plus de 800 millions de personnes vivent à proximité d’un volcan dont 200 millions à moins de 30 km d’un volcan actif (CNRS, 2025). La caractérisation de l’aléa volcanique est donc essentielle pour la sureté des habitants en territoires volcaniques. Cela repose notamment sur la compréhension des lien divers entre un volcan et les types de dépôts, l’intensité éruptive ou encore la nature du magma qu’il génère.

Cette étude se concentre sur la région méditerranéenne et plus précisément sur 6 édifices actifs : quatre édifices italiens et deux édifices grecs. La période étudié s’étend de 2015 à 2025.

Les volcans italiens sont l’Etna (Sicile, Italie), le Vésuve (Naples, sud de l’Italie), Lipari et Vulcano (Iles Eoliennes, Sicile, Italie).

Les volcans grecques sont le Santorin et le Nisyros (Iles Dodecanese, Grèce).

Les données disponibles sont comme les magnitudes, les types de magma, les profondeur du magma, le VEI, la classification des éruptions, ainsi que le les volumes estimés des produits pour chaque édifices.

L’objectif principal est de déterminer si il existe un lien statistique entre la magnitude et l’édifice volcanique afin d’identifier quelle population s’expose plus à un risque important. Il sera aussi particulièrement intéressant de regarder le lien possible entre le volcan et le type de magma, paramètre influant sur la dynamique des éruptions et donc de l’aléa.

Enfin, l’étude évalue également l’intéraction possible entre l’édifice et la profondeur du magma, ainsi que la variation de cette profondeur en fonction du type de magma. Ces éléments peuvent contribuer à une meilleur compréhension des processus pré-éruptifs et permettre d’améliorer la surveillance des édifices volcaniques.

2 Analyse exploiratoire des données

2.1 Chargement et préparation des données

Les données ont été chargée et modifier pour avoir les bons types de variables. Le jeu de donnée est composé de 47 observation et de 14 variables. La variable Volume a été calculée à partir des données de magnitudes. Cette nouvelle variable a permis d’également déterminé le VEI ainsi que la classification éruptives des volcans.

De plus, le summary a déjà permis d’obtenir pour les variables numériques : le maximum, le minimum, la moyenne et la médiane. Une synthèse est proposée dans le tableau ci-dessous :

Variable Type Résumé / Statistiques principales
Volcanoes Catégorielle Santorin (13), Nisyros (11), Lipari (9), Vulcano (6), Etna (7), Vesuvio (1)
Magnitude Numérique Min: 1.2 – Max: 5.3 – Moy: 2.76 – Médiane: 2.3
Depth (km) Numérique Min: 0.0 – Max: 225.4 – Moy: 27.57 – Médiane: 10.0
Volume (m³) Numérique Min: 6.3×10⁴ – Max: 7.98×10⁸ – Moy: 5.01×10⁷ – Médiane: 7.98×10⁵
Latitude Numérique -
Longitude Numérique -
VEI Catégorielle VEI 1: 24, VEI 2: 9, VEI 3: 13, VEI 4: 1
Classification Catégorielle Hawaïen/Strombolien (24), Strombolien/Vulcanien (9), Vulcanien (13), Vulcanien/Plinien (1)
Mag.Type Catégorielle MB (19), MA (14), ML (9), MB-MA (3), MBa (1), MR (1)
Region Catégorielle Dodecanese Islands (24), Sicily (22), Southern (1)
Country Catégorielle Greece (24), Italy (23)

La variable Mag.Type correspond au type de magma produit par le volcan lors de l’éruption. Les différentes catégories de magma sont définies comme suit :

Code Description
MB Magma basaltique
ML Magma latitique
MA Magma andésitique
MR Magma rhyolitique
MB-MA Magma basaltique à andésitique
MBa Magma basaltique alcalin

Enfin, il est important de préciser que pour le Vesuve il n’y a qu’une seule observation prise en compte dans cette étude. L’absence de plusieurs informations ne permettra pas de comparer les données pour ce volcan par rapport au autres.

2.2 Calcul des distances entre les volcans

Cette section permet de visualiser les distances entre les différents volcans étudiés en km.

2.3 Calcule des paramètres de dispersions

L’objectif de cette section eest de calculer les principales statistiques descriptives (variance, moyenne, médiane, minimum et maximum) pour les variables numériques Depth, Magnitude et Volume à la fois pour l’ensemble des volcans (global) et pour chaque volcan individuellement.

Avant toute analyse, il est important de précisé que le nombre de données par volcans n’est surement pas suffisante pour réaliser des statistiques les plus optimales possible.

Groupe Variable Variance Moyenne Médiane Min Max
Global Depth 2683.43422 27.56902 10.00 0.00 225.420
Global Magnitude 1.56159 2.75957 2.30 1.20 5.300
Global Volume 1.5973504×10¹⁶ 5.012363×10⁷ 798104.93 63395.73 798104926.0
Santorin Depth 23.21269 7.44615 10.00 0.00 17.600
Santorin Magnitude 2.25859 2.87692 1.90 1.20 4.700
Santorin Volume 4.908889×10¹⁵ 5.338526×10⁷ 317731.29 63395.73 2.00474893×10⁸
Etna Depth 130.90810 19.41429 25.20 5.00 30.000
Etna Magnitude 1.07333 2.00000 1.50 1.40 4.300
Etna Volume 9.056722×10¹⁴ 1.156326×10⁷ 126491.11 100475.46 7.9810492×10⁷
Vesuvio Depth NA - - - -
Vesuvio Magnitude NA - - - -
Vesuvio Volume NA - - - -
Vulcano Depth 10.43741 9.28700 9.15 5.20 14.722
Vulcano Magnitude 1.36967 2.21667 2.00 1.20 4.400
Vulcano Volume 1.6690856×10¹⁵ 1.708496×10⁷ 443170.11 63395.73 1.00475457×10⁸
Lipari Depth 8245.75305 54.22689 8.80 5.00 225.420
Lipari Magnitude 0.84000 2.90000 2.70 1.80 4.400
Lipari Volume 1.902945×10¹⁵ 2.354918×10⁷ 23549175.68 252382.94 100475457.300
Nisyros Depth 3726.96190 47.16182 13.10 5.47 152.810
Nisyros Magnitude 1.45855 3.33636 2.80 1.90 5.300
Nisyros Volume 5.7457176×10¹⁶ 1.150703×10⁸ 2523829.38 317731.29 798104926.000

2.3.1 Profondeur moyenne d’origine des magmas

En moyenne, Lipari présentent les profondeurs les plus importantes. A l’inverse, Santorin est le volcan dont les magmas sont les plus superficiels.

Cependant, la variance des profondeurs pour Lipari est très importante, cela s’explique par la présence d’outliers (7 points de données) qui augmentent considérablement la dispersion des mesures. Ce phènomène peut être du soit à des erreurs de messures, soit des porcessus magmatiques plus complexes.

2.3.2 Volume des produits éruptifs

Nisyros est le volcan ayant émis les volumes les plus importants durant la période 2015-2025. A l’opposé,Vulcano est celui qui présente le volume le plus faibles.

Comme pour les profondeurs, ces valeurs doivent être interprétées avec prudence au vue de la variance importante des données.

2.3.3 Magnitude des éruptions

La magnitude des éruptions est en moyenne plus importante pour Nisyros. Cela est cohérent avec les valeurs moyennes pour le volume. La magnitude est directement reliée au volume emis, plus le volume est important plus la magnitude le sera.

Cependant, ce n’est pas Vulcano qui possède la plus faible moyenne des magnitudes mais l’Etna. Cela peut s’expliquer par le faite que l’Etna à émis plus de petites éruptions sur 2015-2025 que Vulcano.

En conclusion, l’analyse des paramètres de dispersion montre que les volcans grecs produisent des éurptions avec des magnitudes plus variées (1.2 à 5.3) par rapport auxles volcans Italiens. Ceux-ci ont une variabilité plus modérées, à l’exception de Lipari qui produit des volumes et des magntides élevées.

Les différentes variables numériques ne sont cependant pas dans les mêmes unités, il est donc important de regarder les coefficients de variation (CV) pour comparer la dispersion relative des données. Dans cette étude, malgré les quelques valeurs extrêmes, la dispetion des paramètres reste comparable entre les volcans.

Variable Écart-type (sd) Coefficient de variation (CV)
Depth 5.18×10¹ 1.88
Magnitude 1.25 0.45
Volume 1.26×10⁸ 2.52

3 Graphiques des analyses univariés

3.1 Analyse univariée de la profondeur

L’analyse de la profondeur des magmas montre une distribution hétérogène. C’est pour cela que sur le boxplot, il s’agit d’une échelle logarithmique afin de réduire cette plage de valeurs.

Au niveau du boxplot, il est possible d’observer :

  • 7 outliers (points rouges) qui correspondent à des profondeurs très importantes (supérieures à 100 km). Ces valeurs extrêmes peuvent influencer la moyenne et la variance des données.
  • médiane (ligne noire au milieu de la boîte) située autour de 10.
  • moyenne (point bleu) légèrement supérieure à la médiane, ce qui indique une légère asymétrie positive dans la distribution des profondeurs.

Au niveau de l’histogramme, c’est la distribution brute qui est observée :

  • forte concentration des profondeurs entre 5 et 20 km
  • la densité montre une distribution très asymétrique.

3.2 Analyse univariée de la magnitude

La distribution des maagnitudes éruptives ne montrent pas de valeurs abérentes. Au niveau de boxplot :

  • la médiane (ligne noire au milieu de la boîte) est située entre 2 et 3.
  • la moyenne (point bleu) est légèrement supérieure à la médiane, indiquant une légère asymétrie positive dans la distribution des magnitudes.

Au niveau de l’histogramme :

  • Deux pics sont visibles : l’un au niveau de 2 et l’autre entre 4 et 5. Cela traduit une distribution bimodale
  • la courbe de densité permet de mieux visualiser cette bimodalité.

Il y ainsi une séparation entre deux groupes. L’un avec des magnitudes faibles et l’autre avec des magnitudes fortes.

Les fortes magnitudes ont une distribution sysmétrique qui s’articule autour d’une valeur centrale de 4,3. Cela se rapproche plus d’une loi normale tandis que les faibles magnitudes ont une distribution plus étalée et moins structurée.

3.3 Analyse univariée du volume estimé

Pour les volumes estimés, on montrent également une répartition bimodale très similaire à celle des magnitudes avec une valeur intermédiaire entre les volumes faibles et forts de 16,25 km3.

Les volumes estimés sont utilisés pour déterminer la magnitude de l’érution, il est donc logique qu’il suivent excatement la même distibution pour l’histogramme et le boxplot.

3.4 Analyse univariée du type de magma

La majorité des magmas sont basaltique (MB) avec quelques occurences andésitique (MA) et latitique (ML=un magma latitique est un magma basaltique avec une texture particulière, il n’y a pas de différence de chimie importante).

La série magmatique est globalement basique et faiblement différenciée, comme en témoigne l’absence quasiment totale de magmas rhyolitiques. La faible présence de basalte alcalin (MBa) indique que les magmas générés appartiennent principalement à la série subalcaline. Enfin, il y a un faible nombre de magmas intermédiaires (MB-MA) suggère l’existence de mélanges magmatiques entre ces deux compositions.

3.5 Analyse univariée du VEI estimé

Le VEI est une échelle de 1 à 8 donnant l’intensité d’une éruption volcanique, de 1 pour les éruptions très peu intenses à 8 pour les évènements extrême. Dans la région étudiée, la majorité des éruptions sont de faible intensité avec des valeurs de VEI 1 à 2 (environ 30 occurances), avec VEI 1 qui est majoritaire.

Des éruption faiblement à moyennement intense (3 à 4) sont également enregistrées, mais elles restent minoritaire. Il n’y a aucune éruption avec un VEI supérieure à 4, ce qui est rassurant puisque les grosses éruptions ont une occurences de plusieurs centaines d’année et sont donc difficilement visible sur une période de 10 ans.

4 Analyse bivariés

Cette analyse univarié a permis de déterminer l’allure de chacune des variables du jeu données. Il est a présent possible d’étudier des relations entres ces différentes variables.

4.1 Lien entre deux variables quantitatives

4.1.1 Lien entre la magnitude et la profondeur

Tout d’abord, 5 outliers sont visibles confirmant les observations faites dans l’univariée avec des points de profondeur beaucoup trop importante.

Le graphique permet d’observer qu’il n’y a aucune corélation visible entre la profondeur et la magnétude. Un test de corrélation peut tout de même être réaliser. Cependant, ce ne sera pas la méthode de Pearson mais la méthode de Spearman car les données ne sont pas distribuées de manière normale. Il s’agit d’un test qui est dit non paramétrique. Ce ne sont pas les données en tant que telle qui sont utilisées mais leurs rangs.

Le coefficient de corrélation est de 0.3235965 . C’est une corrélation positive mais la valuer reste faible car comprise entre 0.1 et 0.3 à plus ou moins 0.02, on a donc une faible corrélation entre la profondeur et la magnitude.

Pour aller plus loin, il est possible de retirer les outliers et de refaire l’analyse.

## [1] 0.1864415

Le coefficient de corrélation est de 0.1864415 . La corrélation est possitive mais elle encore plus faible qu’avec les outliers. Ce phénomène est normal car étant donné que Spearman est basé sur les rangs, les valeurs extrêmes présentent vont faire augmenter le coefficient de corrélation.

4.1.2 Lien entre magnitude et le volume estimé

Le graphique permet d’observer une relation linéaire positive entre volume et la magnitude. En effet, plus la magnitude est importante plus le volume. Afin de vérifier cela, un modèle de regression linéaire est réalisé.

Il faut tout d’abord vérifier les hypothèses du modèle linéaire :

  1. Relation linéraire entre les deux variables : ici cette condition est bien respectée.
  2. Les résidus doivent être normalement distribués : des valeurs s’éloignent de la ligne droite donc cette condition n’est pas respectée.
  3. L’homoscédasticité doit être respectée (variance constante des résidus): ici cette condition n’est pas respectée car la ligne rouge orange n’est pas horizontale donc cela veut dire que les résidus n’ont pas une variance identique.
  4. Influence des observations individuelles : quelques points semblent avoir une influence importante sur le modèle, mais dans l’ensemble, il n’y a pas de points extrêmement influents.

Il n’est donc ainsi pas possible de réaliser le modèle de régression linéraire car aucune des conditions n’est respectée. Il est de même possible de mesurer la corrélation entre les deux variables.

Le coefficient de corrélation est de 1. Il est normal que la corrélation soit de 1 car la méthode de Spearman est robuste aux écarts de valeur.

Cette relation ne peut tout de même pas être interprété e car le volume est estimé à partir de la magnitude donc il est normal qu’il y est une relation entre les deux.

4.1.3 Lien entre le volume et la profondeur

Il est également possible d’étudier la relation entre le volume estimé et la profondeur. Cependant, étant donné que le volume a été estimé à partir de la magnitude, les deux graphiques montrent exactement les mêmes tendances.

Cette similitude se remarque également au niveau de la valeur du coefficient de corrélation de Spearman qui vaut 0.324.

4.2 Lien entre variable qualitative et quantitative

4.2.1 Magnitude en fonction des volcans

L’objectif est d’observer si il y a une différence de magnitude entre les différents volcans.

Au niveau des boxplots :

  • Les médianes des volcans sont différentes les unes des autres.

  • La médiane et la moyenne ne coincident pas, ce qui témoignent d’une asymétries des distributions.

Au niveau du Dotplot :

  • Il est possible d’observer que les données ne sont pas uniformes pour chaque volcan.

  • Certains volcans, comme Santorin ont des clusters autour de 2 et 4, tandis que d’autres, comme Etna, ont une répartition plus uniforme des magnitudes.

Au niveau des courbes de densité :

  • Certains volcans, comme Santorin et Nisyros, ont une distributions bimodales avec deux pics distincts, tandis que d’autres, comme Etna, ont une distribution plus unimodale.

Si on veut observer une différence entre les volcans par rapport à la magnitude, le t.test ne fonctionne pas car celui-ci est pour des échantillons avec deux catégories dans cette étude, il y a six volcans différents. C’est donc une ANOVA qui va être réalisée.

L’ANOVA (Analysis of Variance) permet de comparer les moyennes de plusieurs groupes pour déterminer s’il existe des différences significatives entre elles. Cependant, pour que les résultats de l’ANOVA soient valides, certaines conditions doivent être remplies : 1. Indépendance des observations : Les données de chaque groupe doivent être indépendantes les unes des autres. 2. Normalité : La distribution des résidus doit suivre une distribution normale. Ici, cette condition n’a pas été respectée. 3. Homogénéité des variances : Les variances des différents groupes doivent être similaires (homoscédasticité). La ligne rouge n’est pas à l’horizontale donc cette condition n’est pas respectée.

## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique : 
##  21

Graphiquement, la ligne pour l’hétéroscédasticité n’est pas horizontale. Cependant, le test de Levene donne une p-value de 0.187. Même si l’hétéroscédasticité est respectée, la normalité des résidus ne l’est pas donc il n’est pas possible de réaliser une ANOVA.

Il est tout de même possible de tester à partir d’un test non-paramétrique, le test de Kruskal-Wallis. Celui-ci ne nécessite pas que les données suivent une distribution normale, que les variances soient homogènes.

Les hypothèses pour le test Kruskal-Wallis : H0 : Les distributions des groupes sont identiques (pas de différence significative entre les groupes). H1 : Au moins une des distributions des groupes est différente (il y a une différence significative entre les groupes).

Le summary du test de Kruskal-Wallis donne une **p-value de 0.0949185. Cette p-valeur est supérieur à 0.05, il n’y a donc pas de différence significative entre les magnitudes entre les différents volcans.

4.2.2 Magnitude en fonction du type de magma

L’objectif est d’observer si il y a une différence de magnitude entre les différents types de magmas.

Au niveau des boxplots :

  • Pour MBa et MR, il n’y a qu’une seule valeur de magnitude
  • Ma présente les magnitudes les plus élevées et une faible dispersion
  • MB, MB-MA, ML ont des dispersion plus importants.
  • La moyenne et la médiane ne coïncident pas, ce qui témoigne d’une asymétrie des distributions.

Au niveau des courbes de densité :

  • MA présente une distribution plutôt unimodal, dans des magnitudes fortes
  • MB-MA a une distribution bimodale avec deux pics distincts
  • MB et ML ont des distribution plus étalées

L’ANOVA doit ainsi respecter différents critères. Dans ce cas-ci :

  • L’homoscédadasticité est respectée, il est possible de voir que la ligne rouge sur le graphique est presque à l’horizontale
  • La normalité des résidus est globalement respectée. Cependant, certaines valeurs sont fortement éloignées de la droite centrale comme le 20 et le 42.
  • Au niveau du quatrième graphique, l’ensemble des donnée située dans les bornes de la distance cook. Cependant, les valeurs 20, 40 et 42 sont tout de même proche de ces extrémités. Cela peut causer un effet de levier.
## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique : 
##  43, 44

e test de Levene donne une p-value de 0.6581. Ce qui est en accord avec l’observation graphique.

L’ANOVA est ainsi réalisée, et celle-ci donne une valeur significative de . Il y a ainsi une différences entre les différents types de magmas au niveau de la magnitude.

4.2.3 Profondeur en fonction des classifications des éruptions

L’objectif est d’observer si il y a une différence de profondeur entre les différents volcans.

Au niveau des boxplots : - Les médianes des classifications des types d’éruption sont relativement proches les unes des autres. - La moyenne et la médiane ne coïncident pas, ce qui témoigne d’une asymétrie des distributions. - Certaines classifications ont une dispersion des profondeurs plus importantes.

Au niveau des courbes de densité : - Toutes les courbes ont un pic marqué vers 0-20 km. - Les asymétries sont plutôt possitives

Il n’est possible de réaliser une ANOVA car les conditions d’applications ne sont pas respectés. Les résidus ne sont pas normalement distribués et certaines des valeurs atteignent presque la distance de Cook.

## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique : 
##  38

Il est tout de même possible de réaliser le test Kruskall-walis.

Le test de kruskal-wallis est signifcatif avec une p-valeur de 0.0454364. Il faut préciser qu’il est sensible au différence de distributions donc si celles-ci sont fortement différentes comme c’est le cas ici il est possible qu’il n’y est pas uniquement une différence au niveau des médianes.

4.3 Lien entre deux variables qualitatives

Dans cette partie de cette étude, c’est le lien entre les variables qualitatives qui va être étudié.

4.3.1 Répartition du VEI en fonction des volcans

Il est interessant d’analyser si il y a un lien entre le VEI et les volcans. Pour cela, on va réaliser un graphique de répartition du VEI en fonction des volcans. Il est possible d’observer que la majorité des éruptions ont un VEI compris entre 1 et 3. Nisyros est celui qui présente le VEI le plus haut.

Un autre point important qu’il faut soulever c’est que la plupart des volcans ont un VEI faible, entre 1 et 2 en majorité. Un test peut être réalisé afin de savoir si il y a un lien entre le VEI et les différents types de volcans. Il s’agit d’un test de Chi2. Pour pouvoir faire cela, il faut d’abord réaliser un tableau de contingence.

## Warning in chisq.test(tabVEI): L’approximation du Chi-2 est peut-être
## incorrecte

Il s’agit d’un khi-deux pour tester l’indépendance entre deux variables qualitatives. Les hépytohèses : H0 : il n’y a pas de relation entre le VEI et les différents volcans. H1 : il y a une relation entre le VEI et les différents volcans.

Dans ce cas-ci, le test du chi 2 est significatif car p-valeur > 0.05 (0.1377903) . Cela veut dire qu’il n’y a pas de relation significatif entre le VEI et les volcans.

4.3.2 Répartition du type de magma en fonction des volcans

Il est ininteressant d’analyser si il y a un lien entre le type de magma et les volcans.

  • Il y a une dominance des magmas balsatiques (MB), surtout au niveau de Lipari.

  • Présence importante de magma latitique en majorité au niveau de Santorin.

  • Le magma andésitique est observé au niveau de plusieurs volcans.

Le test de chi2 est également réalisé pour cette relation.

## Warning in chisq.test(tab): L’approximation du Chi-2 est peut-être incorrecte

Dans ce cas-ci, le test du chi 2 est significatif car p-valeur > 0.05 (0.0045587) . Cependant, cette valeur est tout de même proche 0.05 donc cette relation doit être prise avec précaution.

4.3.3 ACF

Une ACF est une analyse factorielle des correspondances. Cela permet d’analyser la relation entre deux variables qualitatives. Il est ainsi important qu’il est la présence d’une relation entre les deux. C’est pour cela que l’AFC est réalisé à partir des variables Volcanoes et Mag.Type.

Le but de l’AFC est de réduire la dimensionnalité des données tout en gardant l’écart d’indépendance entre les variables.

Afin de pouvoir savoir le nombres d’axes qu’il faut retenir, un scree plot est réalisé. Celui-ci permet d’observer que ce sont bien les deux premiers axes qui contiennent toute l’information (~99%).

Il est également intéressant de regarder quelles variables contribuents le plus à quels axes. Pour la première dimension :

  • Les volcans qui contribuent le plus sont Nisyros, Santorin et Lipari

  • Les types de magmas qui contribuent le plus sont MA et MB

Pour la deuxième dimension

  • Les volcans qui contribuent le plus sont Nisyros et Santorin

  • Les types de magmas qui contribuent le plus sont MB-MA et ML

Le biplot permet de visualiser les relations entre les modalités des deux variables. Il montre :

  • les variables situées à droite sont principalement bien représentées.

  • Ma et Vesuvio, elles ont une qualité de représentation plus faible. Ce qui correspond bien avec les graphiques précédent qui montraient que Ma et le Vesuve n’était pas dans les variables les plus représentées dans les deux premières dimensions.

  • une discrimination forte entre les volcans italiens et les volcans égéens principalement expliquée par Dim1

  • une discrimination entre Nisyros et Santorin principalement expliquée par Dim 2

  • les volcans italiens présentent des caractéristiques communes, peu de dispersion

  • les volcans grecs présentent une variabilité géochimique plus importantes.

4.3.4 Répartition du type de magma en fonction des classifications

  • Le type MA est majoritaire dans la classification des volcans explosifs

  • Le type MB est majoritaire dans la classification des volcans effusifs

  • ML apparait uniquement dans la classification des volcans explosifs

  • MB-MA et MR ne sont pas fortement représentés

## Warning in chisq.test(tabmg): L’approximation du Chi-2 est peut-être incorrecte

Le test chi2 est également réalisé pour savoir s’il y a une relation entre les deux variables qualitatives. Comme pour la relation précédente, la p-valeur <0.05 (8.1561704^{-6}). Ce qui veut dire qu’il y a bien une relation entre les deux variables.

4.3.5 AFC

L’AFC est réalisée à partir des variables Classification et Mag.Type. Un scree plot est réalisé afin de savoir quelle composante principale prend en charge le plus de variabilité. Les deux premières composantes prennent 100% de la variabilité.

Pour la première dimension :

  • La classification qui contribuent le plus sont Vulcanien
  • Le type de magmas qui contribuent est MA

Pour la deuxième dimension :

  • Les classifications qui contribuent le plus sont Strombolien/Vulcanien et Hawaiien/Strombolien

  • Les types de magmas qui contribuent le plus sont MB-MA, ML, MR Le biplot permet de visualiser les relations entre les modalités des deux variables.I Il montre :

  • l’ensemble des variables sont bien représentées sauf Vulcanien/Plinien qui a un cos 2 inférieur à 0.9975.

  • Séparation nette entre la classification des volcans plus et moins exploisifs (Dim 1)

  • MA est associée aux volcans plus explosifs (Vulcanien)

  • Séparation au niveau des types Strombolien/Vulcanien et Hawaien/Strombolien (Dim 2)

  • MB-MA, ML, MR et MBa sont associés aux volcans moins explosifs (Hawaien/Strombolien)

5 Analyse multivariée

Précédement, ce sont les analyses avec une pour deux variables qui était étudié. Il est pourtant également d’étudier les relations entre plus de trois variables différentes.

5.1 Répartition du type de magma selon le volcan et la classification

5.1.1 Représentation graphiques

Le graphique montre la répartition des types de magmas en fonction du volcans, des laves ainsi que la classification. Ce graphique permet d’observer :

  • Ma est le type de magma le plus fréquent que nivau de la classification Vulcanien au niveau des différents volcans

  • Nysiros est le seul volcan qui présente un comportement de type Vulcanien/Plinien

  • les types d’éruption les plus fréquent sont Hawaien/Strombolien et Vulcanien.

  • ML (magma latitique) n’apparait que dans la classificition Hawaien/Strombalien et au niveau de Santorin et un peu Nisyros.

5.1.2 ACM

L’ACM est une analyse en composantes multiples. Celle-ci permet d’analyser les relations entre plusieurs variables qualitatives. Ici, l’ACM est réalisée à partir des variables Classification, Mag.Type, Volcanoes.

Le sreeplot permet d’observer qu’il faut 10 composantes principales pour expliquer 100% de la variance.

Un biplot peut également être réaliser pour l’ACM. Avant toute chose, il est interessant de regarder que l’échelle au niveau du cos2 n’est pas du tout la même que précédement. Les valeurs ici sont beaucoup plus faible.

5.2 Répartition de la magnitude en fonction de la profondeur et des volcans

5.2.1 Représentation graphique

Il est possible de regarder la relation entre la profondeur et la magnitude en fonction des volcans. Cepedant, étant donnée que la relation entre la prodondeur et la magnitude ne donnaient déjà pas de relation, le rajout des volcans ne montrent aucun apport.

5.3 ACP

L’ACP est une analyse en composantes principales. Celle-ci permet d’analyser les relations entre plusieurs variables quantitatives. Ici, l’ACP est réalisée à partir des variables Depth, Magnitude et Volume.

Une matrice de corrélation est réalisée afin d’observer les relations entre les différentes variables quantitatives. Il est possible d’observer comme précédement qu’une forte corrélation positive exciste entre la magntiude et le volume car celui-ci est calculé à partir de la magnitude. En ce qui concerne le lien entre la profondeur et la magnitude, la corrélation est moins importante mais tout de même précente.

Il y a trois variables, il y a ainsi trois composantes principales. Le scree plot permet d’observer que les deux premières composantes gardent 89,6% de la variabilité totale.

Le graphique de contribution permet d’observer quelles variables contribuent le plus à chaque axe : - Les variables Magntiude et Volume contribuent fortement à la première dimension - La profondeur contribue plus à la deuxième.

Au niveau du cercle de corrélation, il est possible de voir que la magnitude et le volume contribuent à la dimension 1 tandis que la profondeur contribue plus à la dimension 2.

Les flèches sont proches du bord du cercle, ce qui veut dire que ces variables sont bien représentées dans ce plan.

La magnitude et le volume sont positivement corrélés. A l’inverse la profondeur et le volume sont orthogonaux donc il n’y a aucune corrélation entre ces deux variables. A partir de ce grapique, il est possible de voir que la plupart des volcans sont regroupés dans la partie droite du graphique.

6 Equation logistique multinomiale

La régression logistique multinomiale est une extension de la régression logistique binaire qui permet de modéliser des variables dépendantes catégorielles avec plus de deux catégories. Ici, deux modèles sont réalisés : un avec comme variable dépendante le type de magma et un autre avec comme variable dépendante le volcan.

L’AIC (Akaike Information Criterion) est une mesure qui permet de déterminer quel modèle statistique explique le plus le modèle. Il faut que l’AIC soit la plus faible possible. Le plus grand point fort de l’AIC, c’est qu’elle pénalise les modèles qui sont trop complexes et qui donc ne peuvent pas s’appliquer sur des données invisibles.

Dans cette étude, c’est le deuxième qui est le meilleur car il a l’AIC la plus faible. Cela voudrait dire que la magnitude et le volume sont des bons prédicteurs pour le type de magma.

Cependant le problème est le suivant, les écarts types sont beaucoup trop petits. Le modèle va donc sur estimé les coefficients des classes qui ne sont pas du tout supperposée. Même si il y a un petit chevauchement, les classes extrêmes sont parfaitement séparés, c’est un cas de sépration quasi-complètes. De plus, un autre facteur qui joue sur ces écart-types est le nombre d’échantillon. Le nombre de volcans dans cette étude n’est pas suffisant pour réaliser un modèle cohérent.

7 Clustering (je ne sais pas si ça sert à grand chose de le mettre)

Le clustering est une technique d’apprentissage non supervisée qui permet de regrouper des observations similaires en clusters ou groupes. Ici, le clustering K-means est utilisé pour regrouper les volcans en fonction de leurs caractéristiques quantitatives : profondeur, magnitude et volume.

##   Group.1   Volume     Depth Magnitude
## 1       1 87398658 170.56600  3.980000
## 2       2 45686132  10.54557  2.614286